We study short-term prediction of wind speed and wind power (every 10 minutes up to 4 hours ahead). Accurate forecasts for these quantities are crucial to mitigate the negative effects of wind farms' intermittent production on energy systems and markets. We use machine learning to combine outputs from numerical weather prediction models with local observations. The former provide valuable information on higher scales dynamics while the latter gives the model fresher and location-specific data. So as to make the results usable for practitioners, we focus on well-known methods which can handle a high volume of data. We study first variable selection using both a linear technique and a nonlinear one. Then we exploit these results to forecast wind speed and wind power still with an emphasis on linear models versus nonlinear ones. For the wind power prediction, we also compare the indirect approach (wind speed predictions passed through a power curve) and the indirect one (directly predict wind power).
translated by 谷歌翻译
潜在的Dirichlet分配(LDA)如潜在的概率主题模型已延伸到双语设置。其中几个扩展中的基本建模假设是输入语料库是文档对的形式,其成分文件共享单个主题分布。然而,对于类似的小型公司而言,这种假设是强大的,这些数据在基本上类似的文件,即又是最常见的或易于获得的。在本文中,我们通过提出配对的文档来具有分开的,但绑定的主题分布来放松此假设。 %与配对文件的分布之间的绑定机制。我们建议界限的强度应该取决于每对对的语义相似性。估计以不同语言编写的文档的相似性,我们使用与浅层神经网络学习的交叉语言嵌入式。我们通过扩展两个主题模型来评估所提出的绑定机制:LDA的双语适应,该LDA假定单词袋输入和模型,该模型包含语义相干段的边界的形式的文本结构的一部分。为了评估新颖的主题模型的表现,我们对五种双语,英语文件的同类实验进行了内在和外在的实验,用法语,德语,意大利语,西班牙语和葡萄牙文档进行了英语文件的五种双语。结果展示了通过归一化的点亮互信息测量的主题一致性的方法的效率,以及通过困惑测量的泛化性能,并且在每个语言的交叉文档检索任务中的平均互惠级别方面对。
translated by 谷歌翻译
稳定性是蛋白质健康的关键成分及其通过靶向突变的修饰具有各种领域的应用,例如蛋白质工程,药物设计和有害的变体解释。在过去的几十年里,许多研究已经致力于建立新的,更有效的方法来预测预测突变对蛋白质稳定性的影响,基于人工智能(AI)的最新发展。我们讨论了在独立测试集上估计的特征,算法,计算效率和准确性。我们专注于对其局限性的关键分析,对培训集的经常性偏见,其普遍性和可解释性。我们发现预测器的准确性在15年以上左右1千卡/摩尔。我们通过讨论需要解决的挑战来达到改善性能的挑战。
translated by 谷歌翻译